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媒体 大 数据 服务 平台 设计 与 构建 方法 研究 


摘 要 : 为 了 贯彻 落实 中 央 关 于 媒体 融合 发 展 的 战略 要 求 ， 需 要 积极 应 对 互联 网 发 展 带 来 的 传播 格局 调整 和 用 户 需求 变化 ， 
努力 构建 与 媒体 发 展 趋势 相 适应 、 与 建设 新 型 一 流 媒 体 集团 相 适应 的 媒体 大 数据 服务 体系 。 通 过 汇聚 内 外 媒体 数据 资源 ， 紧 
密 围绕 媒体 融合 发 展业 务 需 求 ， 构 建 大 数据 基础 平台 、 大 数据 资源 管理 平台 、 大 数据 分 析 平 台 和 大 数据 服务 能 力 开放 平台 四 
大 层级 ， 逐 步 形成 “数据 整合 、 能 力 共 享 、 应 用 创新 ”的 媒体 大 数据 工作 体系 。 
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根据 中 央 关 于 推动 传统 媒体 和 新 兴 媒 体 融 合 发 展 的 
重要 指示 与 要 求 ， 要 强化 互联 网 思维 ， 坚 持 传统 媒体 和 
新 兴 媒 体 优势 互补 、 一 体 发 展 ， 坚 持 以 先进 技术 为 支撑 ， 
内 容 建 设 为 根本 , 推动 传统 媒体 和 新 兴 媒 体 在 内 容 、 渠 道 、 
平台 、 经 营 、 管 理 等 方面 的 深度 融合 。 

为 了 贯彻 落实 中 央 关 于 媒体 融合 发 展 的 战略 要 求 ， 
需要 积极 应 对 互联 网 发 展 带 来 的 传播 格局 调整 和 用 户 需 
求 变化 ， 努 力 构建 与 媒体 发 展 趋势 相 适 应 、 与 建设 新 型 
一 流 媒体 集团 相 适 应 的 媒体 大 数据 服务 体系 。 

1. 需求 分 析 

随 着 传统 媒体 和 新 兴 媒 体 融 合 发 展 的 进一步 深化 ， 
媒体 企业 在 大 数据 资源 整合 、 大 数据 资产 管理 、 大 数据 
分 析 挖掘 能 力 建设 以 及 数据 服务 开放 共享 等 方面 面临 一 
系列 问题 ， 从 而 对 技术 系统 的 规划 建设 提出 了 更 高 的 要 
求 。 

1.1 实现 统一 的 大 数据 资源 采集 引进 汇聚 

媒体 机 构 通 过 各 种 渠道 采集 和 引进 了 大 量 外 部 数据 ， 
包括 国内 外 互联 网 网 站 、 数 字 报 刊 杂 志 、“ 两 微 一 端 ”、 
社交 媒体 等 。 同 时, 媒体 机 构 内 部 也 产生 各 类 稿件 数据 、 
产品 数据 、 运 营 数 据 、 用 户 行 为 数据 等 。 如 此 众多 的 外 
部 和 内 部 数据 分 散 存 储 在 不 同 的 部 门 和 技术 系统 里 ， 数 
据 资 源 之 间 存 在 大 量 重复 和 克 余 ， 数 据 关 联 关系 没有 打 
通 ， 数 据 资源 条 块 化 分 隔 情况 比较 严重 ， 数 据 资源 共享 
和 再 利用 能 力 较 低 。 因 此 ， 需 要 整合 机 构 现 有 大 数据 资 
源 采 集 能 力 和 引进 能 力 ， 按 需 汇 聚 各 类 数据 资源 ， 实 现 
数据 资源 的 汇聚 融合 、 开 放 共 享 和 互联 互通 。 

1. 2 实现 媒体 大 数据 资产 全 生命 周期 管理 

一 个 媒体 大 数据 服务 体系 离 不 开 高 效 的 数据 存储 与 
计算 基础 平台 ， 由 于 数据 种 类 多 、 数 据 量 大 、 计 算 处 理 
效率 不 同 ， 因 此 ， 对 大 数据 存储 与 计算 处 理 能 力 提出 了 
更 高 的 要 求 。 需要 基于 互联 网 主流 大 数据 平台 技术 架构 ， 
分 层 构 建 高 效 分 布 式 媒体 大 数据 存储 与 计算 平台 ， 能 够 
实现 PB 量 级 的 大 数据 存储 和 处 理 能 力 ， 并 根据 业务 需要 
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实现 从 实时 到 离线 的 不 同 数据 处 理 效率 。 同 时 ， 需 要 实 
现 对 平台 上 所 有 媒体 大 数据 资产 的 全 生命 周期 管理 ， 实 
现 数据 存储 管理 、 标 准 管理 、 流 程 管理 、 质 量 管理 和 安 
全 管理 。 
1. 3 建设 统一 的 大 数据 分 析 平 台 

现在 ， 策划、 采集 、 编 写 、 发 布 、 反 馈 等 各 类 媒体 
业务 环节 越 来 越 离 不 开 大 数据 分 析 的 支持 ， 因 此 有 必要 
进一步 加 强 自 然 语言 处 理 、 数 据 挖 气 、 机 器 学 习 、 数 据 
可 视 化 等 智能 信息 处 理 技术 创新 ， 提 升 知 识 发 现 、 大 数 
据 分 析 挖 掘 能 力 ， 助 力 提 升 策 采编 发 供 馈 等 各 项 媒体 业 
务 创新 能 力 ， 提 供 满 足 业 务 需要 的 各 类 公共 性 媒体 大 数 
据 分 析 服 务 。 
1. 4 提供 开发 共享 的 媒体 大 数据 能 力 开放 平台 

通过 制订 统一 的 平台 标准 、 数 据 标 准 、 服 务 标准 和 
管理 标准 , 将 媒体 大 数据 平台 形成 的 各 项 服务 进行 封装 ， 
实现 这 些 服务 的 模块 化 和 标准 化 ， 形 成 各 类 公共 模型 、 
工具 和 组 件 ， 提 供 面向 各 类 媒体 创新 业务 的 公共 性 、 基 
础 性 和 开放 共享 的 服务 能 力 支 撑 。 
2. 建设 目标 

基于 互联 网 思维 ,汇聚 内 外 媒体 数据 资源 ， 围 绕 媒 
体 融 合 发 展业 务 需 求 , 构建 统一 的 媒体 大 数据 服务 平台 ， 
逐步 形成 “数据 整合 、 能 力 共享 、 应 用 创新 ”的 媒体 大 
数据 工作 体系 。 

汇聚 内 外 数据 资源 ， 形 成 媒体 大 数据 服务 体系 ; 盏 
向 互联 网 思维 ， 构 建 媒体 大 数据 能 力 开放 平台 。 
3. 总 体 架 构 设 计 
3.1 总 体 架 构 

媒体 大 数据 服务 体系 从 总 体 架构 上 可 划分 为 大 数据 
基础 平台 、 大 数据 资源 管理 平台 、 大 数据 分 析 平 台 和 大 
数据 服务 能 力 开放 平台 四 个 层级 。 
3. 2 大 数据 基础 平台 

大 数据 基础 平台 是 大 数据 存储 管理 以 及 分 析 计 算 运 
行 的 基础 环境 ,包含 大 数据 的 基础 运行 环境 搭建 、 资 源 
任务 调度 管理 、 实 时 /离线 计算 支撑 、 结 构 化 和 非 结 构 化 
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数据 存储 、 数 据 检索 、 系 统管 理 监控 、 数 据 访问 的 标准 
化 SQL 支持 等 功能 。 
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可 按 需 提供 关系 型 数据 库 、 列 式 数据 库 、 分 布 式 文 
件 系统 、 分 析 型 数据 库 、 全 文 检索 数据 库 、 内 存 数据 库 
等 不 同类 型 的 数据 存储 资源 。 

可 根据 业务 的 使 用 场景 以 及 数据 自身 的 特点 ， 提 供 
合适 的 计算 框架 进行 实时 或 离线 的 计算 , 完成 分 析 功 能 
针对 实时 性 要 求 不 是 很 高 的 数据 可 使 用 MapReduce 号 或 
Hive 等 进行 非 实时 批 处 理 ， 对 响应 时 间 要 求 比较 高 的 业 
务 场景 可 使 用 Spark 做 实时 内 存 处 理 ， 对 互联 网 流 式 数据 
则 使 用 Storm 或 者 Spark Streaming 做 实时 流 处 理 。 

可 针对 不 同 的 分 析 任 务 按 需 分 配 资 源 ， 进 行 资 源 管 
理 调度 ， 各 分 析 任务 之 间 相 互 不 产生 影响 。 

可 针对 分 析 算法 或 分 析 引 擎 ， 提 供 标 准 化 的 SQL 文 
持 。 可 提供 大 数据 基础 平台 运行 情况 的 管理 和 监控 功能 
便于 系统 管理 员 运 维 管理 。 

3. 3 数据 存储 规划 

考虑 到 数据 类 型 、 数 据 规模 和 数据 增长 量 ， 采 用 
分 布 式 、 高 可 用 、 可 扩展 的 存储 架构 ， 实 现 对 多 来 源 数 
据 、 结 构 化 数据 和 非 结 构 化 数据 的 统一 存储 规划 设计 ， 
采用 分 区 分 域 、 分 层 分 级 、 分 库 分 表 的 设计 理念 ， 根 据 
不 同 的 数据 类 型 合理 选择 数据 存储 组 件 ， 采 用 MySQL、 
MongoDB、 HBase、Hive、HDFS、ES、Codis 等 多 种 数据 
库 组 件 分 别 设计 存储 策略 。 

数据 存储 规划 分 为 以 下 几 个 数据 区 : 

3.3.1 实时 汇集 区 

针对 数据 源 层 各 种 异 构 数据 ， 我 们 需要 采取 多 种 数 
据 接 入 方式 ， 即 可 以 使 用 传统 的 FTP、Http、RPC 等 接 入 
方式 ， 也 能 够 支持 sqoop，flume 等 这 种 以 大 数据 为 主 的 
数据 接 入 方式 。 针 对 互联 网 等 大 数据 量 数据 ， 可 以 采用 
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Kafka 集群 ， 充 分 发 挥 它 的 高 否 叶 量 优势 ， 主 要 用 来 临时 
保存 互联 网 数据 、 行 为 数据 、 交 易 数 据 等 实时 数据 。 
3.3.2 大 数据 存储 区 

对 接 入 的 数据 需要 根据 数据 的 特点 和 业务 场景 进行 
数据 的 存储 ， 即 支持 传统 型 数据 库 也 支持 非 传 统 型 数据 
库 。 互 联网 数据 可 存储 到 FastDFS、HDFS 这 种 分 布 式 文 
件 系统 中 ， 有 具备 存储 弹性 ， 方 便 日 后 扩充 ， 满 足 海量 存 
储 需 求 。 对 数据 进行 处 理 加 工 和 分 析 后 形成 的 结果 数据 
包括 内 容 数据 和 结构 化 数据 ， 可 以 大 对 象 存储 在 列 式 数 
据 库 HBASE 中 ,并 可 通过 HIVE 对 外 提供 HSQL 标 准 服务 ， 
方便 进一步 进行 非 实时 数据 统计 分 析 和 数据 挖掘 使 用 。 
3.3.3 数据 业务 区 

核心 业务 数据 、 结 构 化 数据 、 元 数据 的 存储 可 采 
用 MySQL 关系 型 数据 库 集 群 进行 保存 ， 同 时 可 利用 
Mongodb 数据 库 的 数组 索引 特性 以 及 字段 可 扩展 特性 ， 
存储 数据 的 全 部 附加 属性 ， 做 适当 宛 余 ， 为 数据 服务 提 
供 高 性 能 的 读 写 能 力 。 
3.3.4 数据 检索 区 

利用 像 ElasticSearch 这 类 全 文 检索 数据 库存 储 全 部 
需 检索 数据 ,建立 全 文 索 引 , 实现 大 数据 量 的 快速 检索 。 
3.3.5 数据 热 区 

为 了 实现 快速 访问 建立 数据 热 区 ， 可 利用 Codis 这 类 
内 存 数据 库存 储 需 快速 响应 的 热 数 据 ， 提 高 系统 整体 数 
据 访 问 效率 。 
3.4 大 数据 资源 管理 平台 

大 数据 资源 管理 平台 负责 大 数据 资源 汇聚 、 加 工 处 
理 和 数据 全 生命 周期 管理 ， 是 大 数据 服务 体系 建设 中 的 
核心 环节 之 一 。 主 要 完成 采集 引进 的 多 类 异 构 数 据 资源 
的 汇聚 和 出 人 库 管 理 ， 数 据 的 清洗 加 工 处 理 、 数 据 存储 
管理 、 数 据 标准 管理 、 数 据 流 程 管理 、 数 据 质量 管理 和 
数据 安全 管理 等 功能 。 
3.4.1 数据 资源 汇聚 和 出 入 库 管 理 

负责 将 机 构 内 外 不 同 数据 来 源 的 数据 资源 统一 接 入 
到 数据 平台 中 ,支持 文字 、 图 片 、 音 视频 、 文 件 、 结 构 
化 数据 、 二 进 制 文件 等 不 同 数据 类 型 。 制 定 相 应 的 数据 
接口 规范 ， 采 用 统一 的 应 用 架构 ， 以 插件 式 开 发 和 插件 
化 使 用 的 模式 构建 不 同 的 数据 流程 任务 ， 提 供 FTP、 消 
息 队 列 、API 等 不 同 接口 方式 ， 满 足 不 同 的 业务 流程 和 
异 构 数据 的 出 和 人 库 需求 。 数 据 在 入 库存 储 过 程 中 需要 先 
进行 安全 性 检查 与 完整 性 校 验 ， 并 进行 初步 数据 清洗 预 
处 理 ， 包 括 有 效 性 检查 和 排 重 等 ， 保 证 数据 的 可 靠 性 ， 
接 入 数据 必须 按照 平台 要 求 的 数据 格式 规范 统一 进行 转 
换 后 人 库 。 并 建立 统一 的 数据 汇聚 出 入 库 监控 管理 界面 ， 
能 够 支持 任务 各 要 素 的 灵活 配置 和 定义 ,支持 进行 数据 
接 人 任务 的 监控 和 日 常 运 维 操作 。 
3.4.2 数据 加 工 处 理 

负责 对 接 人 平台 的 各 类 型 数据 进行 进一步 的 加 工 处 
理 。 对 名 类 数据 资源 进行 清洗 、 过 渡 、 去 重 和 转换 等 预 
处 理工 作 ; 基于 平台 建立 的 一 套数 据 标准 ,抽取 元 数据 、 
关键 词 、 实 体 信 息 等 形成 结构 化 描述 信息 ; 使 用 分 词组 
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件 对 文本 数据 进行 快速 分 词 ; 使 用 分 类 技术 对 数据 进行 
自动 分 类 ; 对 数据 进行 标 引 、 加 工 、 修 改 、 纠 错 、 删 除 
等 加 工 维护 管理 ;建立 搜索 词典 到 文档 数据 的 倒 排 索 引 
表 ， 根据 词语 在 文档 中 的 权重 ,为 搜索 词语 生成 相关 索 
引文 档 表 ， 结 合 分 布 式 列 存储 与 分 层 查询 树 技 术 ， 建 立 
针对 海量 数据 的 全 文 检索 和 快速 查询 ， 支 持 更 进一步 的 
数据 分 析 应 用 服务 需求 。 
3.4.3 数据 资源 管理 

负责 对 数据 平台 内 所 有 数据 资产 进行 全 生命 周期 存 
储 、 管 理 和 监控 。 对 机 构 内 数据 、 互 联网 数据 等 实现 集 
中 统一 存储 管理 ， 对 主 数据 、 元 数据 和 数据 资源 目录 进 
行 统 一 维护 和 管理 ， 构 建 数 据 资源 全 景 视图 。 实 现 数据 
标准 管理 、 数 据 流程 管理 、 数 据 质量 管理 和 数据 安全 管理 。 
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统一 存储 和 管理 相关 算法 的 代码 、 配 置 参数 、 调 用 接口 
规范 、 数 据 输 入 输出 接口 规范 、 文 档 说 明 、 元 数据 等 。 

提供 工具 集 对 外 交互 界面 ， 实 现 工具 集 的 可 视 化 、 
标准 化 和 流程 化 使 用 和 运行 监控 。 提 供 工 具 集 的 扩展 接 
口 ， 可 以 根据 业务 需求 将 新 增 或 第 三 方 提供 的 数据 分 析 
算法 工具 纳入 进来 ， 统 一 调度 和 管理 。 
3. 6 大 数据 服务 能 力 开放 平台 

大 数据 服务 能 力 开放 平台 负责 将 大 数据 平台 的 各 类 
数据 服务 和 分 析 服 务 进 行 封装 并 对 外 提供 服务 能 力 的 开 
放 和 共享 。 大 数据 平台 形成 的 服务 能 力 有 : 数据 订阅 类 
服务 、 语 义 分 析 类 服务 、 图 片 视频 智能 分 析 类 服务 、 智 
能 检索 类 服务 、 智 能 推荐 类 服务 、 知 识 类 专题 类 服务 、 
统计 分 析 类 服务 、 数 据 可 视 化 等 各 种 公共 性 服务 能 力 。 


(1 ) 数据 质量 和 数据 流程 管理 。 为 确保 数据 的 完整 
性 、 规 范 性 、 一 致 性 、 准 确 性 ， 提 供 统 一 数据 处 理 流 程 
和 中 间 状 态 的 调度 、 管 理 和 监控 ， 可 以 及 时 发 现 数据 处 
理 各 个 环节 出 现 的 问题 和 质量 风险 ， 对 发 现 的 异常 进行 
报警 。 在 数据 入 库 环节 ， 制 定数 据 质量 规则 ， 对 不 符合 
质量 规则 的 数据 进行 告警 ， 并 进行 相应 处 理 。 管 理 员 可 
以 通过 对 规则 的 不 断 修 改 完善 ， 不 断 提 高 人 库 数 据 的 质 
里 o 

(2 ) 元 数据 管理 。 元 数据 管理 贯穿 从 数据 采集 引进 、 
数据 处 理 加 工 、 数 据 分 析 和 数据 服务 全 流程 环节 ， 对 各 
流程 环节 形成 的 数据 的 元 数据 进行 标准 定义 、 元 数据 生 
成 和 元 数据 管理 维护 ， 通 过 对 元 数据 的 管理 形成 数据 服 
务 平台 统一 的 数据 视图 ， 为 整个 平台 数据 资源 管理 英 定 
基础 。 


(3 ) 数据 标准 管理 。 制 订 融 合 媒体 数据 存 管控 相关 
标准 规范 ,贯穿 数据 的 采集 引进 、 处 理 加 工 、 存 储 管理 、 
公共 服务 整个 全 生命 周期 和 全 工作 流程 ， 通 过 对 标准 的 
制订 、 维 护 和 遵循 ,为 平台 实现 全 媒体 数据 的 汇聚 融合 、 
统一 管理 和 共享 服务 提供 数据 标准 规范 的 指导 。 

3. 5 大 数据 分 析 平 台 

大 数据 分 析 平 台 通过 构建 中 文 语义 分 析 引 擎 、 推 荐 
引擎 、 智 能 检索 引擎 、 知 识 推荐 引擎 、 图 片 视频 智能 分 
析 引 擎 、 专 题 分 析 、 数 据 可 视 化 工具 等 媒体 大 数据 公共 
性 基础 性 智能 处 理 模型 工具 组 件 ， 对 平台 中 的 大 量 数据 
资源 进行 深入 分 析 ， 控 掘 数 据 关系 ， 构 建 知识 网 络 ， 提 
升 数据 价值 ， 助 力 策 采编 发 供 馈 等 各 项 媒体 业务 创新 应 
用 需求 。 

将 这 些 算法 模型 进行 模块 化 、 服 务 化 封装 ， 针 对 媒 
体 行业 各 类 业务 需求 提供 基础 数据 分 析 引 擎 和 分 析 工 具 。 
通过 标准 化 各 类 处 理 、 分 析 、 挖 掘 算法 的 输入 输出 参数 
和 中 间 结 果 ， 提供 标准 化 的 服务 接口 ,可 以 方便 地 读 取 、 
调用 、 管 理 和 调 优 。 

在 系统 运营 过 程 中 不 断 发 现 偏差 点 并 进行 有 针对 性 
的 优化 调整 ,支持 对 算法 、 模 型 .引擎 的 优化 、 新 增 和 替换 。 
同时 ， 通 过 合理 的 计算 架构 的 设计 和 相应 的 任务 调度 ， 
保证 算法 运行 在 更 高 效 的 计算 架构 下 。 

提供 对 数据 分 析 工具 集 的 有 效 管理， 建立 信息 库 ， 


通过 制订 服务 标准 和 管理 标准 ， 形 成 标准 化 服务 模块 和 
服务 组 件 ， 提 供 标准 化 服务 接口 ， 为 各 类 业务 系统 按 需 
调用 。 同 时 ,数据 服务 管理 通过 对 服务 的 注册 、 认 证 、 授 权 、 
审计 、 监 控 等 管理 功能 ， 实 现 数据 服务 可 管 可 控 。 
以 面向 服务 的 思想 为 核心 理念 ， 对 服务 进行 高 度 解 
耦 ， 构 建 细 粒 度 、 扁 平 化 、 低 耦合 的 服务 资源 池 ， 统 一 
为 上 层 应 用 提供 功能 和 数据 支撑 。 

将 多 源 、 异 构 数 据 以 及 关联 数据 等 数据 的 获取 方式 
进行 接口 化 封装 ， 实 现 基 础 数据 服务 化 。 

对 数据 分 析 计 算 层 的 数据 处 理 分 析 算 法 、 组 件 进行 
接口 化 封装 ， 实 现 数据 分 析 的 服务 化 。 

通过 数据 和 应 用 封装 技术 ， 实 现 对 数据 的 访问 和 操 
作 按 照 一 定 粒度 封装 为 独立 的 服务 实体 ， 尽 可 能 屏蔽 内 
部 的 细节 ， 只 提供 标准 化 的 交互 接口 ， 供 各 内 部 模块 或 
者 外 部 系统 进行 调用 。 交 互 接口 形式 包括 Open API、 
SDK、WEBService 等 ， 实 现 自 有 业务 应 用 支撑 和 开放 共 
享 服务 。 
建立 服务 管理 平台 作为 服务 注册 和 服务 治理 的 管控 
中 枢 。 媒 体 大 数据 服务 平台 向 上 层 提供 的 服务 通过 服务 
管理 平台 进行 统一 管控 , 服务 管理 平台 负责 服务 的 注册 、 
认证 、 授 权 、 审 计 、 监 控 等 管理 功能 。 
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